ЗАДАЧА ПРЕДСКАЗАНИЯ МНОГОМЕРНОЙ ПЕРЕМЕННОЙ
Г.С. Лбов, Т.А. Ступина
Институт математики СО РАН, Новосибирск, Россия
Abstract — This work is devoted to problem of prediction multidimensional variable. This problem is generalization of well-known problem of multi-response regression in case of independent and goal features are multidimensional and heterogeneous. For this time such tusk was formulated
in work [1].Пусть имеется генеральная совокупность объектов
, для которой определена произвольная вероятностная мера P(). Каждый объект может быть охарактеризован значениями переменных а также значениями так называемых целевых (предсказываемых) переменных то есть каждому путем проведения измерений могут быть сопоставлены значения переменных . Данные переменные могут быть произвольных типов (вещественные, целые, порядковые, номинальные, бинарные).Рассматриваемая задача состоит в том, чтобы для произвольного объекта
из по известным значениям переменных предсказать значения переменных на основе анализа имеющейся эмпирической информации. Заметим, что задачи построения решающей функции распознавания и регрессионной функции являются частным случаем рассматриваемой задачи. Обозначим через множество допустимых значений переменной , через множество допустимых значений переменной ,.
Тогда
может рассматриваться как точка в пространстве , точка в пространстве , - точка в пространстве . Заметим, что пространство в общем случае является разнотипным и, не теряя общности, может быть разложено в прямое произведение дискретного и непрерывного подпространств, тогда , где .Поскольку значения всех переменных могут быть измерены для любого
, то существует отображение из в , и учитывая существование вероятностной меры в пространстве определяется вероятностная мера .Введем в пространстве
меру следующим образом. Поскольку любая область дискретно-непрерывного пространства может быть представлена как , где - проекция на , - точка из , -соответствующая область в , меру произвольной подобласти естественно положить равной , где - лебегова мера множества .Предположим, что отображение
таково, что существует - плотность меры относительно меры , т.е. для любого измеримого подмножества пространства выполняетсяПрименяя формулу Байеса, получаем
.Таким образом,
представляет собой условную плотность распределения в пространстве при условии, что значения переменных равны .Под задачей предсказания будем понимать восстановление условной плотности
на основе выборки, то есть построение некоторой оценки . Под выборкой будем понимать множество, где - набор значений переменных, измеренных для объекта случайным образом выбранного из совокупности .
Поскольку даже в случае дискретных характеристик, как правило,
далеко не для каждой точки пространства имеются экспериментальные данные, а в непрерывном случае выборочные точки в образуют множество меры нуль, очевидна необходимость экстраполяции экспериментальных данных на другие точки пространства переменных. Поэтому будем полагать условное распределение одним и тем же для всех , принадлежащих области , из некоторого разбиения пространства , Класс - множество таких разбиений, при которых где - интервал, если - переменная с упорядоченным множеством значений, и - произвольное подмножество из , если - номинальная переменная, т.е. переменная с конечным неупорядоченным множеством значений. Распределение для обозначим через .После того, как фиксировано разбиение
, условное распределение может быть восстановлено классическими методами (например, путем аппроксимации гистограммой), поэтому главная проблема состоит в эффективном разбиении на подобласти. Эффективность понимается с точки зрения предсказания по известным . Интуитивно понятно, что эффективность такого предсказания должна зависеть от информативности полученного условного распределения . Обычно в качестве меры информативности распределений используют энтропийную меру, однако данная мера не учитывает метрические свойства переменных и не различает упорядоченные и неупорядоченные шкалы.Определим меру информативности, свободную от указанных недостатков. При этом под информативностью распределения будем понимать расстояние между данным распределением
и равномерным распределением на множестве .В дальнейшем любые подмножества
и будем представлять следующим образом: , ; , .Критерием качества разбиения
множества на подмножеств будем называть величину , где - расстояние между распределениями и равномерным распределением , . Задача состоит в том, чтобы найти такое разбиение , при котором .Поскольку распределение
неизвестно, вместо него будем использовать оценку .Для этого используется выборка
, ; - объем выборки, , , , . На основе выборки необходимо найти решающую функцию , дающую отображение . Оценка качества разбиения множества на подмножеств представляется следующим образом:.
Наилучшим разбиением
будем считать разбиение, при котором .Отсюда следует, что при любом фиксированном
для каждого подмножества необходимо максимизировать величину . Обозначим через класс подмножеств таких, что , . Очевидно, что чем меньше мощность множества , тем больше оценка расстояния распределения от равномерного распределения . Найдем . Используя нормировку, мощность будет равна следующему выражению: ,где
- проекция множества на , а - множество минимальной мощности, включающей в себя точки , .Таким образом, чем меньше величина
, тем больше расстояние Для фиксированного разбиения решающая функция представляется следующим образом: если , то , Разбиение должно удовлетворять следующему ограничению: , где - некоторый параметр, определяющий надежность предсказания. Данный алгоритм предсказания многомерной разнотипной переменной реализован программно.Литература
1. Лбов Г.С., Неделько В.М., Восстановление условного распределения на основе экспериментальных данных. \\ Межвузовский сборник “Информатика и процессы управления”, Красноярск 1997, стр. 95-103.
Site of Information
Technologies Designed by inftech@webservis.ru. |
|